検証の論理的な優先順位
統計的推論は本質的に 条件付きです。我々がパラメータ $\theta$ について導き出すいかなる結論も、観察されたデータ $s$ が、仮定したモデル $\mathcal{M} = \{P_\theta : \theta \in \Theta\}$ 内の分布によって生成されたという前提に厳密に束縛されています。
推定: 真の分布 $P_{true}$ が $\mathcal{M}$ に含まれると仮定し、『最良』の $\theta$(例:最大尤度推定量 $\hat{\theta}$)を求めます。これはモデルの 内部で 行われます。
モデル検証: モデルが正しいという仮定を緩めます。それは 任意の どの $\theta \in \Theta$ もデータのパターンを説明できるかを問います。これはモデルの 上 行われます。
関連性危機(落とし穴)
真の分布が統計モデル $\mathcal{M}$ の外にある場合、$\theta$ は科学的な意味を持たなくなります。私たちは 統計的落とし穴に陥ります:その後の推論の関連性は疑問視されるようになります。私たちは本質的に物理的な現実ではなく、数学的な空想の性質を計算しているのです。
例 9.1.1:位置正規モデル
我々が $X_i \sim N(\theta, 1)$ と仮定する最も単純なケースを考えましょう。
サンプル平均 $\bar{x}$ を計算します。正規モデルでは、$\bar{x}$ はデータの『中心』の最適な推定値です。
データが実際に極端な外れ値を含んでいる、または重い尾を持つ コーシー分布の場合を考えます。$\bar{x}$ を機械的に計算することはできますが、それは分布の中心を意味ある形で表すことはできなくなります。正規モデルが無効であるため、信頼区間は危険に狭くなり、誤った確信をもたらすでしょう。